论文推荐|[ICDAR 2021] SynthTIGER: 面向更好的文本识别模型的文本图像生成器(有源码)
一、研究背景
在深度学习时代,通过使用大量文本图片进行训练,OCR模型获得了显著的性能提升。通过算法合成文本图片,能够在短时间内得到大量的训练数据。而获取同等数量的真实文本图片则需要花费大量的成本进行采集和标注。
该论文提出的文本图片合成方法是用于场景文本识别任务中的。场景文本识别任务的训练数据是包含若干个字符的文本行图像,该任务要求合成数据覆盖在现实世界中可能存在的各种样式和文本内容。
在先前的合成方法中比较经典的是MJ[1]和ST[2](这两种方法与SynthTIGER合成图片的对比如图1所示)。MJ是典型的文本行合成方法,在合成时不会像从场景图中直接裁切下来的文本行图片那样可能会引入额外的文本噪声。而ST可以合成包含多个文本行于一张图的场景文本图片,其裁切下来的文本行可能会引入来自于其他文本行的文本噪声。但是,由于ST需要选择特定的区域放置文本,因此文本的样式(如文本的大小)可能会受到限制。
图1 不同文本合成方法的合成效果比较
该论文提出的SynthTIGER结合了MJ和ST的优势,在引入了文本噪声的同时文本的样式不再受到限制。使用SynthTIGER合成的数据训练识别器时,识别器的性能要比使用MJ或ST合成的数据训练的要好,同时性能也与MJ和ST合成数据联合训练处于同一水平。
二、方法原理简述
图2 SynthTIGER渲染过程图示
SynthTIGER的渲染步骤如图2所示,下文将会对每个步骤进行介绍。
(a)文本形状选择:从字体库随机选择字体后,该步骤生成的文本排布方式分为两种:一种是字符从左到右排布,一种是抛物线曲线排布。
(b)文本样式选择:在字体颜色选择上,作者参考ST的方法,使用K-means聚类从真实文本行图片中收集文本颜色和背景颜色的搭配,作为选择文本颜色的依据。考虑到真实场景中的文本颜色并不是单一的,SynthTIGER还选择纹理填充文本。同时,文本的边框和阴影作者也有所考虑。
(c)变换:SynthTIGER主要提供了拉伸、梯形、倾斜和旋转四种变换方式,并随机选择文本距离边界的距离。
(d)融合:在融合阶段,算法需要得到前景文本、干扰文本和背景。前景文本和干扰文本通过前面的步骤生成,而背景生成是通过选择从颜色库和纹理库中随机选择颜色和纹理得到的。融合时,首先由背景和干扰文本融合得到新的背景,再将前景文本和新的背景融合。融合方法有正常、乘法、加网、叠加、强光、柔光、减淡、除法、加法、差值、仅变暗和仅变亮等。SynthTIGER还通过Flood-Fill算法来剔除掉文本和背景混淆的图片。
(e)后处理:SynthTIGER的后处理方法包括高斯噪声、高斯模糊、尺寸调整、中值模糊和JPEG压缩等。
SynthTIGER还提供了两种额外的策略来控制合成数据集的文本长度分布和字符分布。
文本长度分布控制策略是通过给定文本长度的分布,随机决定一个文本长度并随机采样一条文本。当文本长度超过预定时,截断文本;反之则重复采样文本拼接到原文本后面至长度大于等于预定长度,再进行截断。
三、主要实验结果及可视化结果
1. SynthTIGER合成图片的可视化效果
图3 SynthTIGER合成的图片
2. 与其他合成方法比较
论文选用BEST[3]作为场景文本识别模型,并只使用合成的图片进行训练。结果如表1,2所示。其中表1中各个数据集的图片数量分别为(从上到下)8.9M、7M、15.9M和10M,表2中各个数据集具有相同的(字体、纹理、颜色、语料)来源,且数据集图片数量均为10M。
可以看到,SynthTIGER的表现要好于MJ和ST,和MJ+ST混合训练相当。
同时作者还尝试在两种不同类型的语言:拉丁类文字(字符类型较少)和日文(字符类型较多),并在场景识别和文档识别上进行比较,结果如表3所示。
3. 消融实验
作者通过减少SynthTIGER中的某些合成函数,比较减少这些模块后对场景文本识别性能的影响,证明了各个合成函数的有效性。实验结果如表4。
4. 文本长度分布控制策略和字符分布控制策略的效果
图5 字符出现概率分布与其在场景文本识别中的效果
如图4(a)和图5(a)所示,在使用了文本长度分布控制策略和字符分布控制策略后,这两个分布的偏斜程度得到了一定的缓解。
作者通过实验对这两个策略的使用频率进行选择,实验结果如表5、表6和图4(b)、图4(c)所示。加入两个策略后,在高频率区间的识别准确率基本与原来持平,而在低频率区间的识别准确率明显好于不加入这两个策略。
表4 使用文本长度分布控制策略频率不同时的识别准确率,Optimized表示使用验证集的长度分布
表5 使用字符分布控制策略频率不同时的识别准确率
四、总结及讨论
五、相关资源
SynthTIGER论文地址:https://arxiv.org/pdf/2107.09313
SynthTIGER开源代码:
https://github.com/clovaai/synthtigerSynthTIGER公开的数据集:https://drive.google.com/drive/folders/1faHxo6gVeUmmFKJf8dxFZf_yRjamUL96?usp=sharing
参考文献
[1] Jaderberg M, Simonyan K, Vedaldi A, et al. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition[C]//Neural Information Processing Systems, 2014.
[2] Gupta A, Vedaldi A, Zisserman A. Synthetic Data for Text Localisation in Natural Images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2315-2324.
[3] Baek J, Kim G, Lee J, et al. What is Wrong with Scene Text Recognition Model Comparisons? Dataset and Model Analysis[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 4715-4723.
原文作者: Moonbin Yim, Yoonsik Kim, Han-Cheol Cho, Sungrae Park
撰稿:黄家荣
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
论文推荐|[ICCV 2021] 从二到一:一种带有视觉语言建模网络的新场景文本识别器
论文推荐|[ICDAR2021 BestPaper] ViBERTgrid:一种用于文档关键信息提取的联合训练多模态二维文档表示
论文推荐|[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络
论文推荐|[TCSVT 2021] 用于场景文字擦除的文字区域条件生成对抗网络
论文推荐 | [Facebook工作] TextStyleBrush: 基于单样本的文本风格迁移
论文推荐 | [ICDAR 2021] VSR: 结合视觉、语义和关系的文档布局分析统一框架(有源码)
论文推荐|[IEEE TIP 2021] 基于深度学习的文档图像伪造攻击
论文推荐|[PR2021]用于在线手写数学公式识别的笔画约束注意力网络
论文推荐|[TMM 2021]Instance GNN: 联机手写示意图符号分割与识别学习框架
论文推荐|[IEEE TPAMI2021]一种基于合成样本和1维CNN的免伪造样本联机签名认证特征学习方法 (代码已开源)
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: